通過學習文本搜索引擎,我們可以抽象出一般搜索引擎的結構。通常,一般的抽象方法涉及將事物的非關鍵特征剝離出來,僅保留其最本質的特征。對於現有技術條件下的搜索引擎,必須先生成索引函數庫,然後在其上執行搜索查詢。如下所示,首先需要對輸入數據進行一定的前置處理,以便進一步分析。接下來,將文字搜索引擎的詞法、語法分析等語言處理階段抽象為對輸入數據的特征分析,逐個分析出的詞就是構成文件特征向量的基本元素,而反向索引函數庫則是特征和文件之間的對應關系集合。對於查詢數據,我們也需要提取其特征,然後計算其特征向量與索引函數庫中所有特征向量的相似度,最後返回規定數量的相似結果。
特徵索引庫
↓
資料->預先處理->特徵讀取->索引讀取
↓
查詢資料->預先處理->特徵提取->相似度計算
↓
結果返回
參考資料:深智數位《CV+AI自己動手完成圖像搜尋引擎》